在过去的几年中,自动睡眠评分的研究主要集中在开发日益复杂的深度学习体系结构上。但是,最近,这些方法仅实现了边际改进,通常以需要更多数据和更昂贵的培训程序为代价。尽管所有这些努力及其令人满意的表现,但在临床背景下,自动睡眠期临时解决方案并未被广泛采用。我们认为,由于很难训练,部署和繁殖,大多数对睡眠评分的深度学习解决方案在现实世界中的适用性受到限制。此外,这些解决方案缺乏可解释性和透明度,这通常是提高采用率的关键。在这项工作中,我们使用经典的机器学习来重新审视睡眠阶段分类的问题。结果表明,通过传统的机器学习管道可以实现最新的性能,该管道包括预处理,功能提取和简单的机器学习模型。特别是,我们分析了线性模型和非线性(梯度提升)模型的性能。我们的方法超过了两个公共数据集上的最新方法(使用相同的数据):Sleep--EDF SC-20(MF1 0.810)和Sleep-eDF ST(MF1 0.795),同时在Sleep-eDF上取得了竞争成果SC-78(MF1 0.775)和质量SS3(MF1 0.817)。我们表明,对于睡眠阶段评分任务,工程特征向量的表现力与深度学习模型的内部学表现相当。该观察结果为临床采用打开了大门,因为代表性功能向量允许利用传统机器学习模型的可解释性和成功记录。
translated by 谷歌翻译
视觉分析可以说是熟悉数据的最重要步骤。时间序列尤其如此,因为此数据类型很难描述,并且在使用例如摘要统计信息时无法完全理解。要实现有效的时间序列可视化,必须满足四个要求;工具应为(1)交互式,(2)可扩展到数百万个数据点,(3)在常规数据科学环境中可集成,以及(4)高度可配置。我们观察到,开源Python可视化工具包在大多数视觉分析任务中赋予了数据科学家的能力,但是缺乏可扩展性和交互性的组合来实现有效的时间序列可视化。为了促进这些要求,我们创建了Plotly-Resampler,这是一个开源Python库。 Plotly-resampler是Plotly的Python绑定的附加组件,通过汇总基础数据,根据当前的图形视图来增强线图可伸缩性。绘制构建的绘制是活跃的,因为工具的反应性在定性上影响分析师在视觉探索和分析数据的方式。基准任务强调了我们的工具包在样本数和时间序列方面如何比替代方案更好。此外,Plotly-Resmpler的灵活数据聚合功能为研究新型聚合技术铺平了道路。 Plotly-Resampler的集成性以及其可配置性,便利性和高可扩展性,可以有效地分析您日常的Python环境中的高频数据。
translated by 谷歌翻译
特征选择是开发强大而强大的机器学习模型的关键步骤。特征选择技术可以分为两类:过滤器和包装器方法。尽管包装器方法通常会产生强大的预测性能,但它们具有很大的计算复杂性,因此需要大量时间完成,尤其是在处理高维度集合时。或者,滤波器方法的速度要快得多,但是遭受了其他几个缺点,例如(i)需要阈值值,(ii)不考虑特征之间的相互关系,并且(iii)忽略与模型的特征相互作用。为此,我们提出了一种新颖的包装器特征选择方法PowerShap,该方法将统计假设测试和功率计算与Shapley值结合使用,以进行快速和直观的特征选择。 PowerShap建立在核心假设的基础上:与已知的随机功能相比,信息功能将对预测产生更大的影响。基准和仿真表明,PowerShap的表现优于其他过滤器方法,具有与包装器方法相同的预测性能,同时显着更快,甚至达到执行时间的一半或三分之一。因此,PowerShap提供了一种竞争和快速算法,可以在不同域中的各种模型使用。此外,PowerShap是作为插件和开源的Sklearn组件实现的,可以轻松地集成在传统的数据科学管道中。通过提供自动模式,可以自动调整PowerShap算法的超参数,从而进一步增强用户体验,从而可以使用该算法而无需任何配置。
translated by 谷歌翻译
时间序列加工和特征提取是传统机器学习管道中的关键和时间密集步骤。现有软件包的实际适用性受到限制,因为它们无法应对不规则采样和异步数据。因此,我们呈现$ \ texttt {tsflex} $,用于处理和特征提取的域无关,灵活和序列的第一个Python工具包,其能够处理具有未对准测量的不规则采样的序列。此工具包是首先序列,因为(1)基于序列的参数,用于STRIVELD-WONETS功能提取,并且(2)通过所有支持的操作维护序列索引。 $ \ texttt {tsflex} $ fasel fasel fasel,因为它本地支持(1)多变量时间序列,(2)多个窗口级别配置,(3)与其他包的处理和功能功能集成,而(4)没有假设关于数据采样率规律性和同步。来自此包的其他功能是多处理,深入执行时间记录,支持基于分类和时间的数据,块序列和嵌入式序列化。 $ \ TextTT {TSFlex} $是开发的,以实现快速和内存高效的时间序列处理和特征提取。结果表明,$ \ texttt {tsflex} $比类似的包更灵活,同时在运行时和内存使用情况下表现出这些工具包。
translated by 谷歌翻译
Causal deep learning (CDL) is a new and important research area in the larger field of machine learning. With CDL, researchers aim to structure and encode causal knowledge in the extremely flexible representation space of deep learning models. Doing so will lead to more informed, robust, and general predictions and inference -- which is important! However, CDL is still in its infancy. For example, it is not clear how we ought to compare different methods as they are so different in their output, the way they encode causal knowledge, or even how they represent this knowledge. This is a living paper that categorises methods in causal deep learning beyond Pearl's ladder of causation. We refine the rungs in Pearl's ladder, while also adding a separate dimension that categorises the parametric assumptions of both input and representation, arriving at the map of causal deep learning. Our map covers machine learning disciplines such as supervised learning, reinforcement learning, generative modelling and beyond. Our paradigm is a tool which helps researchers to: find benchmarks, compare methods, and most importantly: identify research gaps. With this work we aim to structure the avalanche of papers being published on causal deep learning. While papers on the topic are being published daily, our map remains fixed. We open-source our map for others to use as they see fit: perhaps to offer guidance in a related works section, or to better highlight the contribution of their paper.
translated by 谷歌翻译
最近,大型高质量的公共数据集导致了卷积神经网络的发展,这些神经网络可以在专家病理学家水平上检测乳腺癌的淋巴结转移。许多癌症,无论起源地点如何,都可以转移到淋巴结。但是,收集和注释每种癌症类型的高量,高质量数据集都是具有挑战性的。在本文中,我们研究了如何在多任务设置中最有效地利用现有的高质量数据集,以实现紧密相关的任务。具体而言,我们将探索不同的训练和领域适应策略,包括预防灾难性遗忘,用于结肠和头颈癌症转移淋巴结中的灾难性遗忘。我们的结果表明,两项癌症转移检测任务的最新性能。此外,我们显示了从一种癌症类型到另一种癌症的反复适应以获得多任务转移检测网络的有效性。最后,我们表明,利用现有的高质量数据集可以显着提高新目标任务的性能,并且可以使用正则化有效地减轻灾难性遗忘。
translated by 谷歌翻译
我们对无监督的结构学习感兴趣,特别关注有向的无环图形(DAG)模型。推断这些结构所需的计算通常在变量量中是超指定性的,因为推理需要扫描组合较大的潜在结构空间。也就是说,直到最近允许使用可区分的度量标准搜索此空间,大幅度缩短了搜索时间。尽管该技术(名为Notears)被广泛认为是在DAG-DISCOVERY中的开创性工作,但它承认了一个重要的属性,有利于可怜性:可运输性。在我们的论文中,我们介绍了D型结构,该结构通过新颖的结构和损失功能在发现的结构中恢复可运输性,同时保持完全可区分。由于D型结构仍然可区分,因此可以像以前使用Notears一样轻松地采用我们的方法。在我们的实验中,我们根据边缘准确性和结构锤距离验证了D结构。
translated by 谷歌翻译
选择每个患者的最佳治疗计划需要随着时间的推移而准确地预测其结果轨迹的函数。虽然大型观察数据集构成丰富的信息来源,但他们也包含偏差,因为处理很少在实践中随机分配。为了提供准确和无偏见的预测,我们介绍了解除戒备的反事实经常性网络(DCRN),一种新的序列到序列架构,其通过学习患者历史的时间随时间估计治疗结果,这些历史记录被解除为三个单独的潜在因子:治疗因素,影响只有治疗选择;结果因素,影响结果;和一个混杂因素,影响两者。通过架构,完全受到治疗影响的因果结构随着时间的推移,我们推进预测准确性和疾病的理解,因为我们的建筑允许从业者推断哪个患者的轨迹影响哪些患者的轨迹,对比该领域的其他方法对比其他方法。我们证明DCRN在预测治疗响应中的当前最先进的方法,在实际和模拟数据中优于最新的方法。
translated by 谷歌翻译
机器学习模型被批评反映了培训数据中的不公平偏见。我们通过直接引入公平的学习算法来解决这一目标,而不是通过介绍公平的学习算法来解决公平的合成数据,使任何下游学习者都是公平的。从不公平数据生成公平的合成数据 - 同时对潜在的数据生成过程(DGP)留下真实 - 是非微不足道的。在本文中,我们引入了Decaf:用于表格数据的GaN的公平合成数据发生器。通过Decaf,我们将DGP显式作为发电机的输入层中的结构因果模型嵌入,允许在其因果父母上重建每个变量。此过程启用推理时间扩大,其中可以策略性地删除偏置边缘以满足用户定义的公平要求。 Decaf框架是多功能的,与几个公平的定义兼容。在我们的实验中,我们表明Decaf成功地消除了不希望的偏见和 - 与现有方法相比 - 能够产生高质量的合成数据。此外,我们为发电机的收敛和下游模型的公平提供理论担保。
translated by 谷歌翻译
目的:在数字组织病理学中,虚拟多染色对于诊断和生物标志物研究很重要。此外,它为各种深度学习任务提供了准确的基础真相。可以使用不同的连续部分或重新染色同一部分来获得虚拟多染色。两种方法都需要图像注册来补偿组织变形,但是很少关注其准确性。方法:我们比较连续和重新染色部分的变异图像注册,并分析图像分辨率的效果,从而影响准确性和所需的计算资源。我们提供了一个新的重新染色和连续部分的混合数据集(Hyreco,81个滑梯对,约3000个地标),我们公开可用,并将其图像注册结果与自动非辅助组织学图像注册(ANHIR)挑战数据进行比较(连续230个滑梯对)。结果:在连续部分之间,我们在注册7.1 {\ Mu} M(Hyreco)和16.0 {\ Mu} M(anhir)后获得了中位标记错误。在重新染色的部分之间,Hyreco数据集的两个子集中的中值注册误差为2.3 {\ MU} M和0.9 {\ MU} M。我们观察到,在两种情况下,可变形的注册导致比仿射注册的地标性较低,尽管在重新染色部分中的影响较小。结论:连续和重新染色部分的可变形注册是对不同污渍联合分析的有价值的工具。意义:虽然重新染色切片的注册允许核级比对,从而可以直接分析相互作用的生物标志物,但连续切片仅允许转移区域级注释。可以使用更粗的图像分辨率以低计算成本来实现后者。
translated by 谷歌翻译